Скрыть
Раскрыть

ISSN 1998-0663 (print),
ISSN 2587-8166 (online)

English version: ISSN 2587-814X (print),
ISSN 2587-8158 (online)

Фомин С. А.1, Белоусов Р. Л.1
  • 1 Академия гражданской защиты МЧС России, 141435, Московская область, г. Химки, мкр. Новогорск

Поиск семантических дубликатов в коротких новостных сообщениях

2017. № 2 (40). С. 47–56 [содержание номера]

С.А. Фомин - бакалавр технических наук, оператор лаборатории научно-исследовательского центра, Академия гражданской защиты МЧС России
Адрес: 141435, Московская область, г. Химки, мкр. Новогорск
E-mail: sergio-dna@yandex.ru

Р.Л. Белоусов - кандидат технических наук, научный сотрудник научно-исследовательского центра, Академия гражданской защиты МЧС России
Адрес: 141435, Московская область, г. Химки, мкр. Новогорск
E-mail: romabel-87@mail.ru

      В статье рассмотрена задача, связанная с обнаружением публикаций, схожих по смыслу, а также публикаций, посвященных одному событию. Особенность решаемой задачи заключается в том, что в качестве публикаций рассматриваются короткие новостные сообщения, средняя длина которых составляет 40 слов. Для решения указанной задачи разработан алгоритм, в основу которого положена векторная модель семантики, где каждый текст рассматривается как точка в многомерном пространстве. Преобразование корпуса текстов в матрицу производится с помощью меры TF-IDF. Необходимо отметить, что даже для небольших корпусов (объемом порядка 800 сообщений) размерность векторного пространства может превосходить 2000 компонент, а в среднем размерность составляет около 8500 компонент. Для сокращения размерности пространства используется метод главных компонент. Его применение позволяет рационально сократить размерность пространства и оставить около трех процентов компонент от их исходного количества.
      В сокращенном пространстве для объединения векторов в кластеры применяется агломеративная иерархическая кластеризация по алгоритму Ланса–Уильямса, который запускает процесс слияния кластеров. Слияние кластеров производится с помощью вычисления расстояния между ближайшими элементами этих кластеров. Процесс слияния кластеров прекращается в том случае, если расстояние между двумя кластерами превышает некоторое значениеr.
      При проведении численного эксперимента построена регрессионная модель, позволяющая найти наиболее подходящее значение параметра r для каждого корпуса сообщений. В качестве исходных данных для проведения численного эксперимента использовалась коллекция коротких новостей, общий объем которых составляет около 135 тысяч сообщений.
      Разработанный алгоритм имеет достаточно высокие показатели качества, которые учитывают, с одной стороны, способность классифицировать парытекстовых сообщений как семантические дубликаты, а с другой – способность объединять найденные дубликаты в группы. 

Библиографическое описание:

Fomin S.A., Belousov R.L. Detecting semantic duplicates in short news items // Business Informatics. 2017. No. 2 (40). P. 47–56. DOI: 10.17323/1998-0663.2017.2.47.56

BiBTeX
RIS
 
 
Rambler's Top100 rss